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“Any sufficiently advanced technology is 
indistinguishable from magic" 


Arthur C. Clarke 


В докладе 
" Скорость динамических языков 

— все не так просто, как кажется 
= Грязные трюки ЛТ-компиляции 


" Интерпретаторы 
— а так ли нужна компиляция? 


" Graal / Truffle — технологии будущего? 
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Три кита ООП 


" Инкапсуляция 
" Полиморфизм 
" Наследование 


Sp 
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Старый добрый С++ 


Виртуальный вызов метода 


Таблица 
Переменная виртуальных методов 


Объект 


в памяти 


Сегмент кода 


00: methodA 


VTABLE 
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Три кита ООП 


" Инкапсуляция 
" Полиморфизм 


Статические языки ХХ! века 


Полиморфный вызов метода (Rust, СО) 


Таблица 
Переменная виртуальных методов 


VTABLE reference 
Object reference 


00: methodA Сегмент кода 


в памяти 
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Цена непредсказуемости 


Branch misprediction penalty 


Intel Core2 — 15 cycles 

Intel Nehalem — 17 cycles 

Intel Sandy/Ivy bridge - 15 cycles 

Intel Haskwell / Broadwell / Skylake — 15 - 20 cycles 
AMD КВ / K10 - 13 cycles 

AMD Buldozer - 19 - 22 cycles 

AMD Ryzen - 18 cycles 


http://www.agner.org/optimize/microarchitecture.pdf 


Цена непредсказуемости 


Memory access timings (Skylake) 


e L1 cache - 4 cycle 

e L2 cache - 14 cycle 

e 13 cache - 34-85 cycles 
* RAM — 50-100 ns 


Непредсказуемость поведения кода 
— основной вызов ИТ-компилятору 


Как реализовать свой язык? 


Интерпретатор 


Интерпретатор 


Байт-код байт-кода 


J 
9.0 
Ла 
150 
Asserti 
с ама Ла. 


Исходный код AST 


0111010010 
1110100101 
1101001011 
1010010111 
0100101110 
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JIT компиляция 


Классический подход 
— компиляция методов/функций 


Трассирующая компиляция 


Трассирующий компилятор 


foo() bar() 


_| кеј“ | | ка pm ја 


Трассирующий компилятор 


return 


Трассирующий компилятор 


return 


Трассирующий компилятор 


return 


Нарушение гарда переводит Компилируется в блок машинного кода 
выполнение в режим интерпретации 
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Инлайн-кзш вьзовов 


int size = 1151.512е(); 
Псевдокод 
Мономорфная 


int size; 
точка вызова if (list.class == ArrayList.class) 1 


size = ArrayList::size(list); 


else { 
size = VM::dispatch(List::size, list); 
} 


(н) HU свои 


Инлайн-кэш доступа к свойству 


obj.value = x 
LuaJIT-Tpacca 


Честное выполнение НВЕЕК: if (hash[17].key != key) goto exit 


" Деление по модулю 
" Сравнение ключа по индексу 
Синергия со спекулятивным и суперскалярным 
выполнением на современном ЦПУ 
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Трассирующие JIT на практике 


Платформы, использующие трассирующий JIT 
" Flash 


РуРу / ВРуїһоп 

шалт 

Проблемы трассирующего JIT'a 

" Трассировка тормозит интерпретатор 
" Очень медленный “разогрев” 


Особенности ЛТ-компилятора 


“Многослойность” 


" Интерпретатор + Быстрый компилятор + Оптимизирующий компилятор 


Инкрементальная КОМПИЛЯЦИЯ 
" Код компилируется по мере выполнения 
" Оптимизируется только горячий код 


Оптимизация на основании поведения кода 
" Сбор информации о типах в точках вызовов 
" Спекулятивная специализация кода в оптимизирующем компиляторе 


Динамическая деопитимизация 


" Если спекуляции оказались неверны 


Грязные трюки ЛТ 


Спекуляти вное выполнение 
" Инлайн-кэширование динамических вызовов 
" Инлайн-кэширование структурной информации 
" Спекулятивное выполнение ветвлений 


Агрессивный инлайнинг кода 


= Возможен за счёт спекуляции 


Оптимизация (устранение) аллокаций в куче 


" Более эффективен за счёт инлайнинга 


Scalar replacement 


double length() 1 Y включение distance 


return distance( 4 
пем Point(this.ax, this.ay), объекты аи не убегают 


new Point(this.bx, this.by)); У объекты a и b декомпозируются 
} в набор полей 
double h = a.y - b.y; 


return Math.sqrt(w*w 4 h*h); 


} double lengthO { 
double w = this.ax - this.bx; 
double h = this.ay - this.by; 
return Math.sqrt(w*w + h*h); 
+ 


double distance(Point a, Point b) { 
double м = а.х - b.x; 
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А нужна ли магия? 
Что, если генерировать код по-простому? 


Интерпретатор может оказаться быстрее! 


" V8 TurboFan Vs. V8 Ignition 
= HIPHOPVM Vs. PHP 7 
= kdb 


" “Building fast interpreters in Rust" ерогсоцанате. сот 


https://blog.cloudflare.com/building-fast-interpreters-in-rust/ 


V8 TurboFan Vs. Ignition 


Since JIT-less mode disables the optimizing compiler, it comes with a performance penalty. We looked at a 
variety of benchmarks to better understand how М8 5 performance characteristics change. Speedometer 
2.0 is intended to represent a typical web application; the Web Tooling Benchmark includes a set of 
common JS developer tools; and we also include a benchmark that simulates a browsing workflow on the 
Living Room YouTube app. All measurements were made locally on an x64 Linux desktop over 5 runs. 


№ Baseline № Speedometer2.0 № Web Tooling Benchmark № YouTube TV Browsing 


0 25 50 75 100 


Score (higher is better) 


JIT-less vs. default V8. Scores are normalized to 100 for V8's default configuration. htt p с: / / v8 Ў d ev / b | О g /j it | ess 


HIPHOPVM Vs. РНР7 


РНР 7 HHVM 


Statistics = QuickStorm of ("mm =." чү 


Statistics - QuickStorm of ыһа | 


Total Requests 
| Total Errors 
Peak RPS 

| Average RPS 


2,500 
D (096) 
7 

4.17 


Total Requests 
Total Errors 
Peak RPS 
Average RPS 


2,600 
0 (0%) 
7 

4.33 


Peak Response Time(ms) 207 
Average Response Пте(тз) 81 
Total Data Transferred(MB) 4654 

| Peak Throughput(kB/s) 130.31 
Average Thraughput(kB/s) ТРЕЯ 


Peak Response Time(ms) 14:222 
Average Response Time(ms) 62 
Total Data Transferred( MB) 48:86 
Peak Throughput(kB/s) 131.56 
Average ThroughputKB/s) 81.44 


https://www.wpoven.com/blog/hhvm-vs-php-7-performance-showdown-wordpress-nginx 
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Интерпретатор HotSpot JVM 


Для каждой инструкции байт-кода написана 
процедура на ассемблере 

Баит-код - индекс в таблице адресов процедур 
Вход в процедуру инструкции - jump 

Каждая процедура заканчивается jump на вход 
интерпретатора 


Всё так сложно СО 


ЛТ-компилятор 
" Генерация кода 
" Специфика языка 
" Оптимизации 


Интерпретатор 
" Супер-оптимизированный код 
и “Заточка” под архитектуру ЦПУ 


А что если? 


ЛТ-рантайм 


Семантика Генерация 
Программа язъка кода 
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А что если? 


Семантика 
языка 


Универсальный 


Программа 
КЕ ЛТ-рантайм 
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PyPy — Питон на Питоне 


Трасса интерпретации 
узлов AST 


Программа ga Интерпретатор M Трассирующий 
на Python “7 waRPython W JIT 
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Graal & Truffle 


€ LLL се 
= Java JS чу f 
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Automatic transformation of interpreters to compiler 


GraalVM. 


Embeddable in native or managed applications 


ORACLE UN standalone 


OpenJDK. nede Database MySQL. 


https://www. ега 675 


Graal & Truffle 


" Оптимизирующий ЛТ-компилятор 

= Написанный Ha Java 

= 150+ видов/фаз оптимизации 

" Понимает ЈУМ-баит-код, но не только 

" Использует промежуточное графовое представление код 
" Может использоваться вместо C2 BJDK 11 

" Truffle — языковой фасад для Graal 


Graal + Truffle 


Граф алгоритма интерпретатора, 
специализированный узлом AST 


Исходный др Интерпретатор ди Graal JIT 
код 4 на Тги# е w JVM 
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TruffleRuby 
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https://pragtob.wordpress.com/2017/01/24/benchmarking-a-go-ai-in-ruby-cruby-vs-rubinius-vs-jruby-vs-truffle-a-year-later/ 
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Truffle 


Реализуем трюфельный ЛТ-рантайм 


1. Пишем интерпретатор AST на Java 
2. Включаем Сгаа|-компилятор в ММ 
3. Добавляем ЛТ-оптимизации декларативно 


Truffle 


public final ConditionProfile condition = ConditionProfile.createCountingProfile () ; 


@Override 
public void executeVoid(VirtualFrame frame) { 


if (condition.profile(evaluateCondition(frame))) { 
/* Execute the then-branch. */ 
thenPartNode.executeVoid(frame); 
) else ( 
/* Execute the */ 
if (elsePartNode != null) { 
elsePartNode.executeVoid(frame) ; 


https ://github.com/graalvm/simplelanguage 
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Truffle 


@Specialization(limit = "INLINE CACHE SIZE", // 
guards = "function.getCallTarget() == cachedTarget", // 
assumptions = "callTargetStable") 


@SuppressWarnings ("unused") 
protected static Object doDirect(SLFunction function, Object[] arguments, 
] table()") Assumption callTargetStable, 


@Cached("function.getCallTargets 
@Cached("function.getCallTarget()") RootCallTarget cachedTarget, 


@Cached ("create (cachedTarget)") DirectCallNode callNode) { 
/* Inline cache hit, we are safe to execute the cached call target. 


return callNode.call (arguments); 


i 


@Specialization(replaces = "doDirect") 


protected static Object doIndirect(SLFunction function, Object[] arguments, 
1Node callNode) 4 


@Cached("create()") IndirectCal 
/* SL has a quite simple call lookup: just ask the function for 
and call it. */ 


* the current call target, 
arguments); 


return callNode.call(function.getCallTarget(), 
} https://github.com/graalvm/simplelanguage 
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Ссылки 


LuaJIT 
https://web.archive.org/web/20180721041742/http://article.gmane.org/gmane.comp.lang.lua.general/58908 
https ://github.com/lukego/blog/issues?q=is%3Aissue+is%3d3Aopen+label%3Aluajit 
Incremental Dynamic Code Generation with Trace Trees 
https://www.cs.montana.edu/ross/classes/fall2009/cs550/resources/Tracemonkey-01.pdf 

V8 Design blog 

https://v8.dev/blog | https://v8.dev/blog/jitless | https://mrale.ph/ 

RPython 

https ://rpython.readthedocs.io/en/latest/[it/index.html 
http://tratt.net/laurie/research/pubs/papers/bolz_tratt_ the impact of metatracing on vm design and implementation.pdf 
Интерпретаторы 

https ://blog.cloudflare.com/building-fast-interpreters-in-rust/ 

https ://badootech.badoo.com/when-pigs-fly-optimising-bytecode-interpreters-f64fo6bfa20f 
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Ссылки 


Сгаа! 

https ://github.com/oracle/graal/blob/master/docs/Publications.md 

https ://www.graalvm.org 

https://chrisseaton.com/rubytruffle/pppj14-om/pppj14-om.pdf — object layout for TruffleRuby 
https ://www.youtube.com/watch?v=FJY96 6Y3a4 - 3 hours Truffle introduction 

https //github.com/graalvm/graal-js-jdk11-maven-demo — out-of box Java 11 + Graal JIT setup 
Partial escape analysis 
http://www.ssw.uni-linz.ac.at/Research/Papers/Stadler14/Stadler2014-CGO-PEA.pdf 
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